查看原文
其他

从阅读量看大数据技术关注热点

2017-02-17 Coda6 大数据开放实验室

十五早已过去,春节正式结束,而我们也早已在新的一年中工作了两周。吾日三省吾身,为了发现过去本公众号运营的不足之处,反思过去,以新的姿态迎头赶上新一年的朝阳,我们决定对2016年内发表的各个文章进行总结,整理出从本公众号开放以来到春节前发表的各原创文章阅读量。我们用积极的态度去探索,用科学的数据分析手段进行信息挖掘,最终探测出了近期读者对于大数据技术内容的喜好口味,迫不及待的想和大家分享。

统计一下阅读量

2016年8月30日,“大数据开放实验室”诞生,发布了其生命中的第一篇文章《开篇:写给致力于大数据技术发展的志同道合者》。

2017年1月25号为止,本平台发表的原创文章共达23篇。这些原创文章不仅被发布于本公众号,还在其他五个渠道进行推广。经统计,每篇文章在每个平台的平均阅读量约达1900人次。我们整理出每篇文章在不同平台上的阅读量,总结为如下的柱状分布图(某些文章未发表于全部平台,所以部分文章在个别平台的阅读量显示缺失):

接着将每篇文浓缩为一个关键字,把各关键字所出现的各文章的阅读量进行平均作为其出现次数,然后利用星环即将随TDH 5.0发布的报表工具Slim,对关键字绘制Word Cloud分析图(注:Word Cloud图中每个关键字的显示尺寸和出现次数成正相关,出现次数越多显示的字体越大)。

下面是Slim对于关键字绘制的Word Cloud统计图:

直观看去,该图中有三个最明显的关键字,分别是:SQL on Hadoop数据仓库、Lambda、Docker+Jenkins;其次,技术栈、预测趋势、SQL优化出现在第二梯队,且差距不大;其余关键字的关注度表现稍逊色。

下面是通过Slim分析得到的各话题在关注度中的具体占比情况:


此处插播一则良心广告:

Slim是一个丰富灵活的图形化报表工具,星环实现了该平台同Inceptor的对接,只要用户安装了TDH,无需再额外安装其他报表工具,就可以直接利用Slim对Inceptor中表对象进行可视化分析。

大数据技术热点话题

除了话题关注度外,文章的阅读量会受一些外在因素影响,例如推广程度、受众人群、标题的吸引力等,而且本公众号文章覆盖的技术话题也是有限的,即便如此,我们依然能够从上面的统计结果中发现一些2016年大数据技术的关注热点,下面是我们分析挖掘并整理出的几点价值信息:

1. 三个热点

Word Cloud图反映出读者对于SQL on Hadoop数据仓库Lambda架构和集群自动化部署技术这三个话题的浓厚兴趣,映射了大数据发展的三个现状:首先,SQL on Hadoop数据仓库平台以它的强大表现力证明其自身实力,受到业界认可,得到有效推广,并被市场充分接受,有着明朗的发展和应用前景;其次,Lambda架构获得广泛关注,说明越来越多的生产对于实时&批处理两种业务场景的处理需求,使很多大数据从业人员希望掌握Lambda架构方式和原理;最后,Docker+Jenkins的关注度表现证明了Docker的火热,以及把它同Jenkins相结合用于进行自动化运维部署的认可:开发人员提交代码,测试人员用Docker做搭建环境,触发Jenkins,就能创造新版本,用这样方式来有效辅助并推动DevOps概念在开发流程中的渗入。

2. Lambda vs Kappa

Lambda和Kappa是把批处理和流处理进行整合的两种架构方式,但Lambda的关注度明显更高。在撰写本文时,我们利用百度引擎进行搜索,发现关键词“Lambda+架构”的结果有~414,000个,而“Kappa+架构”只有~5,400个,恰好也放反映了这一点。此结果和我们的预期有些出入,因为对于生产实践而言Kappa确实比Lambda有更好的灵活性。所以只能这样解释,Kappa作为一种新的技术,还未在国内被广泛熟知。任何好的新事物都需要一段过程来完善自我,进行价值传播,以被更多人接受,所以我们的观点是,依然看好Kappa的未来发展,相信它定会受到更广泛的关注,提高知名度。

3. SQL优化

从上图可看出SQL优化的关注度虽并非名列前茅但也处于中上,说明SQL优化也是一个小热点,体现了分析型SQL性能的重要性。这是可以理解的,SQL作为数据分析的刀枪,其执行性能对于走在时间前端的管理者或者业务分析人员而言固然重要。分析人员在进行大量数据的OLAP复杂分析时,必须要节省时间提高效率,所以利用有效的优化手段让SQL跑的飞起显得格外重要。同时,用户对分析型SQL查询的要求越来越高,也暗示各个数仓供应商必须对SQL语法提供更加全面的支持,提供光速的SQL执行引擎,以及更高效的SQL优化工具。

4. 有活力的技术创新

2010年以来,大数据逐渐成为关注热点,大数据基础设施技术逐年走向成熟。同时,仍然有很多年轻的创新技术不断涌现,它们解决了以往技术存在的关键问题,并带领市场走向更好的道路,例如业内呈现的MapReduce向Spark的架构演变,大数据同云服务的融合等。这些日新月异的变化说明大数据依然处于朝阳,技术创新方面依然不乏活力。随着大数据市场规模的逐年增长,中国作为世界重要的大数据市场,其中潜在的机遇数量是巨大的。让我们对大数据的未来拭目以待。

新希望

最后分享一下运营公众号的心得:好内容、好渠道、好标题,构成高阅读量文章的根本。内容是文章的基石,它的受关注程度新颖程度和质量决定了文章是否可以真正实现价值输出,是否能够保证下一篇文章的阅读量;渠道是文章传输通道,它的好坏、是否全面,决定文章的终端受众人数;标题是文章门面,它对文章阅读量的高低有直接的影响。

目前,我们在以上三方面都仍有进步空间,所以会再接再厉,尽全力在每方面都做的更好。

运行公众号实不易,感谢一直关注我们的订阅者。丁酉年我们会继续努力,和各位一起学习成长,研究开拓新技术,洞察大数据发展趋势,和大家交流分享。

历史文章

下面是对在本公众号上发表的文章进行的分类。

Hadoop安全

如何让Kafka集群免受黑客攻击

Transwarp如何让Hadoop集群免受黑客攻击

技术分析介绍

公开课:大数据技术的发展概析

大数据基础技术的未来演进趋势预测

Kappa:比Lambda更好更灵活的实时处理架构

深入浅出解析大数据Lambda架构

微信自研生产级paxos类库PhxPaxos实现原理介绍

Docker+Jenkins打造自动化测试以及部署升级环境

开篇:写给致力于大数据技术发展的志同道合者

SQL相关

SQL优化:基于代价的优化方法的介绍与使用(下)

SQL优化:基于代价的优化方法的介绍与使用(上)

六种常见SQL场景及其在TDH中的优化策略

详解Inceptor SQL的集合运算

从关系型数据库到大数据,谈谈数据字典的故事

Hadoop平台中SQL优化的四个思路

大数据时代的SQL、NoSQL和NewSQL

星环的产品们

Transpedia的发布及其使用攻略

Inceptor任务的图形化分析(三)

Inceptor任务的图形化分析(二)

Inceptor任务的图形化分析(一)

Hadoop集群上如何使用数据字典做元数据管理(应用实战)

为Hadoop集群装备上警报系统

Transwarp Data Hub中的指标监控利器

自动化分布式环境检测工具——Koalas

一站式rJava自主开发的应用实现

从PageRank算法入门Graphene

数据挖据算法

面向程序员的数据挖掘指南——第四章:分类器

面向程序员的数据挖掘指南——第三章:隐式评价和基于物品的过滤算法

面向程序员的数据挖掘指南——第二章:推荐系统入门

面向程序员的数据挖掘指南——第一章:简介




大数据开放实验室由星环信息科技(上海)有限公司运营,专门致力于大数据技术的研究和传播。若转载请在文章开头明显注明“文章来源于微信订阅号——大数据开放实验室”,并保留作者和账号介绍。


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存